Search CORE

11 research outputs found

When opportunities got smaller in USA

Author: Anguera Miró Xavier
Publication venue: Escola Tècnica Superior d'Enginyers de Telecomunicació de Barcelona
Publication date: 01/01/2003
Field of study

Peer Reviewe

UPCommons. Portal del coneixement obert de la UPC

When opportunities got smaller in USA

Author: Anguera Miró Xavier
Publication venue: Branca d'Estudiants de l'IEEE de Barcelona
Publication date: 01/01/2003
Field of study

Peer Reviewe

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

UPCommons. Portal del coneixement obert de la UPC

Revistes Catalanes amb Accés Obert

When opportunities got smaller in USA

Author: Anguera Miró Xavier
Publication venue: Escola Tècnica Superior d'Enginyers de Telecomunicació de Barcelona
Publication date: 01/01/2003
Field of study

Peer Reviewe

Robust speaker diarization for meetings

Author: Anguera Miró Xavier
Publication venue: Universitat Politècnica de Catalunya
Publication date: 01/01/2006
Field of study

Aquesta tesi doctoral mostra la recerca feta en l'àrea de la diarització de locutor per a sales de reunions. En la present s'estudien els algorismes i la implementació d'un sistema en diferit de segmentació i aglomerat de locutor per a grabacions de reunions a on normalment es té accés a més d'un micròfon per al processat. El bloc més important de recerca s'ha fet durant una estada al International Computer Science Institute (ICSI, Berkeley, Caligornia) per un període de dos anys.La diarització de locutor s'ha estudiat força per al domini de grabacions de ràdio i televisió. La majoria dels sistemes proposats utilitzen algun tipus d'aglomerat jeràrquic de les dades en grups acústics a on de bon principi no se sap el número de locutors òptim ni tampoc la seva identitat. Un mètode molt comunment utilitzat s'anomena "bottom-up clustering" (aglomerat de baix-a-dalt), amb el qual inicialment es defineixen molts grups acústics de dades que es van ajuntant de manera iterativa fins a obtenir el nombre òptim de grups tot i acomplint un criteri de parada. Tots aquests sistemes es basen en l'anàlisi d'un canal d'entrada individual, el qual no permet la seva aplicació directa per a reunions. A més a més, molts d'aquests algorisms necessiten entrenar models o afinar els parameters del sistema usant dades externes, el qual dificulta l'aplicabilitat d'aquests sistemes per a dades diferents de les usades per a l'adaptació.La implementació proposada en aquesta tesi es dirigeix a solventar els problemes mencionats anteriorment. Aquesta pren com a punt de partida el sistema existent al ICSI de diarització de locutor basat en l'aglomerat de "baix-a-dalt". Primer es processen els canals de grabació disponibles per a obtindre un sol canal d'audio de qualitat major, a més dínformació sobre la posició dels locutors existents. Aleshores s'implementa un sistema de detecció de veu/silenci que no requereix de cap entrenament previ, i processa els segments de veu resultant amb una versió millorada del sistema mono-canal de diarització de locutor. Aquest sistema ha estat modificat per a l'ús de l'informació de posició dels locutors (quan es tingui) i s'han adaptat i creat nous algorismes per a que el sistema obtingui tanta informació com sigui possible directament del senyal acustic, fent-lo menys depenent de les dades de desenvolupament. El sistema resultant és flexible i es pot usar en qualsevol tipus de sala de reunions pel que fa al nombre de micròfons o la seva posició. El sistema, a més, no requereix en absolute dades d´entrenament, sent més senzill adaptar-lo a diferents tipus de dades o dominis d'aplicació. Finalment, fa un pas endavant en l'ús de parametres que siguin mes robusts als canvis en les dades acústiques. Dos versions del sistema es van presentar amb resultats excel.lents a les evaluacions de RT05s i RT06s del NIST en transcripció rica per a reunions, a on aquests es van avaluar amb dades de dos subdominis diferents (conferencies i reunions). A més a més, es fan experiments utilitzant totes les dades disponibles de les evaluacions RT per a demostrar la viabilitat dels algorisms proposats en aquesta tasca.This thesis shows research performed into the topic of speaker diarization for meeting rooms. It looks into the algorithms and the implementation of an offline speaker segmentation and clustering system for a meeting recording where usually more than one microphone is available. The main research and system implementation has been done while visiting the International Computes Science Institute (ICSI, Berkeley, California) for a period of two years. Speaker diarization is a well studied topic on the domain of broadcast news recordings. Most of the proposed systems involve some sort of hierarchical clustering of the data into clusters, where the optimum number of speakers of their identities are unknown a priory. A very commonly used method is called bottom-up clustering, where multiple initial clusters are iteratively merged until the optimum number of clusters is reached, according to some stopping criterion. Such systems are based on a single channel input, not allowing a direct application for the meetings domain. Although some efforts have been done to adapt such systems to multichannel data, at the start of this thesis no effective implementation had been proposed. Furthermore, many of these speaker diarization algorithms involve some sort of models training or parameter tuning using external data, which impedes its usability with data different from what they have been adapted to.The implementation proposed in this thesis works towards solving the aforementioned problems. Taking the existing hierarchical bottom-up mono-channel speaker diarization system from ICSI, it first uses a flexible acoustic beamforming to extract speaker location information and obtain a single enhanced signal from all available microphones. It then implements a train-free speech/non-speech detection on such signal and processes the resulting speech segments with an improved version of the mono-channel speaker diarization system. Such system has been modified to use speaker location information (then available) and several algorithms have been adapted or created new to adapt the system behavior to each particular recording by obtaining information directly from the acoustics, making it less dependent on the development data.The resulting system is flexible to any meetings room layout regarding the number of microphones and their placement. It is train-free making it easy to adapt to different sorts of data and domains of application. Finally, it takes a step forward into the use of parameters that are more robust to changes in the acoustic data. Two versions of the system were submitted with excellent results in RT05s and RT06s NIST Rich Transcription evaluations for meetings, where data from two different subdomains (lectures and conferences) was evaluated. Also, experiments using the RT datasets from all meetings evaluations were used to test the different proposed algorithms proving their suitability to the task.Postprint (published version

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

UPCommons. Portal del coneixement obert de la UPC

Tesis Doctorals en Xarxa

Secretaría de Estado de Cultura

Petra : advanced oral interfaces for unified messaging applications

Author: Anguera Miró Xavier
Hernando Davalillo David
Hernando Pericás Francisco Javier
Publication venue: Escola Tècnica Superior d'Enginyers de Telecomunicació de Barcelona
Publication date: 01/01/2005
Field of study

A new unified messaging system which integrates voice messages, fax and e-mail in a common mailbox has be en developed. The combination of speech and linguistic engineering advances allows a natural oral man-machine interaction with the userwhenaccessingthemessages by phone. Advanced features are supplied such as texts summarization, messages c1assification and notification through the phone of new messages received.Peer Reviewe

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

UPCommons. Portal del coneixement obert de la UPC

Segmentació de locutor per a la indexació automàtica de bases de dades multimèdia en català

Author: Anguera Miró Xavier, 1978-
Farrús Mireia
Hernando Javier
Publication venue
Publication date: 01/01/2004
Field of study

Comunicació presentada a: II Congrés d'Enginyeria en Llengua Catalana, celebrat a Andorra del 19 al 21 de novembre de 2004.L'evolució de la societat de la informació ha esdevingut un incessant increment de continguts audiovisuals que s’emeten constantment en cadenes de televisió i emissores de radio locals i nacionals en llengua catalana. Aquestes emissions normalment s'arxiven en bases de dades multimèdia per tal de poder ser consultades posteriorment, però degut a la gran quantitat de dades emmagatzemades resulta difícil, si no impossible, i molt costós poder accedir a aquesta informació. Amb aquesta comunicació pretenem donar a conèixer les tècniques existents actualment d'indexació automàtica de material sonor en les quals estem treballant en el departament de Teoria del Senyal i Comunicacions de la UPC. Mitjançant una indexació automàtica de les bases de dades és possible realitzar cerques concretes i recuperar documents molt més ràpidament. Mostrem especial èmfasi en el cas de la indexació de la identitat de les persones que apareixen a la base de dades, i en quin interval de temps parlen. Presentem una mesura anomenada XBIC per detectar els canvis de locutor dins d'un senyal de veu, creada dins del nostre grup. Es mostren resultats d'aquesta nova tècnica sobre una base de dades recollida en llengua catalana

UPF Digital Repository

Segmentació de locutor per a la indexació automàtica de bases de dades multimèdia en català

Author: Anguera Miró Xavier, 1978-
Farrús Mireia
Hernando Javier
Publication venue
Publication date
Field of study

RECERCAT

Els sistemes de reconeixement de veu i traducció automàtica en català: present i futur

Author: Anguera Miró Xavier, 1978-
Anguita Jan
Crego Josep Maria
de Gispert A.
Farrús Mireia
Hernando Javier
Nadeu Camprubí Climent
Publication venue
Publication date: 01/01/2004
Field of study

La visió actual de la societat de la informació gira fonamentalment al voltant de la llengua escrita. No obstant, és evident que la forma més natural i espontània de comunicació entre els éssers humans és la parla, i no precisament l’escriptura. Per aquest motiu, la recerca sobre les tecnologies de la parla ha despertat un gran interès en l’actual societat de la informació. En aquesta comunicació es fa referència a algunes de les tecnologies de la parla amb més ressò actualment: el reconeixement automàtic de la veu i la traducció oral. La conversió textparla es tracta en una altra comunicació presentada per membres del nostre Centre [1]. Així doncs, aquí es presenten només les característiques principals del reconeixement de la parla i de la traducció oral. La traducció oral pot fer-se directament a partir de la parla, però aquí considerarem que es tradueix el text que dóna un sistema de reconeixement i a continuació el text traduït es converteix en parla. La traducció de text es pot tractar mitjançant dues aproximacions bàsiques, l’una basada en el coneixement lingüístic (és a dir, en regles), i l’altra en l’estadística. La primera aproximació es presenta en una altra comunicació signada per membres del nostre Centre [2]. En aquesta comunicació ens centrarem només en la segona aproximació, fent referència a l’enfocament estadístic que tenen en comú el reconeixement i la traducció. En aquesta comunicació es descriu breument l’estat actual d’aquestes tecnologies, concretantho en l’àmbit de la llengua catalana, així com les línies futures de recerca que caldria seguir per continuar desenvolupant noves eines en català o millorar les existents. Farem referència a algunes eines o recursos desenvolupats al Centre TALP, (Centre de Tecnologies i Aplicacions del Llenguatge i la Parla), un centre de recerca interdepartamental de la Universitat Politècnica de Catalunya, l’àmbit tecnològic del qual és el tractament automàtic del llenguatge natural, tant en la modalitat oral com en l’escrita

UPF Digital Repository

Els sistemes de reconeixement de veu i traducció automàtica en català: present i futur

Author: Anguera Miró Xavier, 1978-
Anguita Jan
Crego Josep Maria
de Gispert A.
Farrús Mireia
Hernando Javier
Nadeu Camprubí Climent
Publication venue
Publication date
Field of study

RECERCAT